从自然语言监督中学习视觉表示,最近在许多开创性的作品中表现出了巨大的希望。通常,这些具有语言的视觉模型表现出对各种数据集和任务的强大可传递性。但是,由于缺乏易于使用的评估工具包和公共基准,评估这些模型的可转让性仍然很具有挑战性。为了解决这个问题,我们构建了高级版(评估语言的视觉任务级传输),这是用于评估(预训练)语言增强视觉模型的第一个基准和工具包。升华由三个组成部分组成。 (i)数据集。作为下游评估套件,它由20个图像分类数据集和35个对象检测数据集组成,每个数据集都用外部知识来增强。 (ii)工具包。开发了自动高参数调谐工具包,以促进下游任务的模型评估。 (iii)指标。多种评估指标用于测量样品效率(零射击和少量)和参数效率(线性探测和完整模型微调)。我们在https://computer-vision-in-the-wild.github.io/elevater/上公开发布leverater
translated by 谷歌翻译
变形AutoEncoders(VAES)是具有许多域中应用的强大的基于似然的生成模型之一。然而,他们努力产生高质量的图像,尤其是当样品从之前没有任何回火时获得。 VAES生成质量的一个解释是先前孔问题:前提分配不能匹配近似后部的总体近似。由于这种不匹配,在不对应于任何编码图像的之前,存在具有高密度的潜在空间中的区域。来自这些区域的样本被解码为损坏的图像。为了解决这个问题,我们提出了基于能源的基础产品,由基础产品的乘积和重新免除因子,旨在使基座更接近骨料后部。我们通过噪声对比估计训练重重的因素,我们将其概括为具有许多潜在变量组的分层VAE。我们的实验证实,所提出的噪声对比前沿通过MNIST,CIFAR-10,CELEBA 64和Celeba HQ 256数据集的大边缘改善了最先进的VAE的生成性能。我们的方法很简单,可以应用于各种VAE,以提高其先前分配的表现。
translated by 谷歌翻译
We propose ClipFace, a novel self-supervised approach for text-guided editing of textured 3D morphable model of faces. Specifically, we employ user-friendly language prompts to enable control of the expressions as well as appearance of 3D faces. We leverage the geometric expressiveness of 3D morphable models, which inherently possess limited controllability and texture expressivity, and develop a self-supervised generative model to jointly synthesize expressive, textured, and articulated faces in 3D. We enable high-quality texture generation for 3D faces by adversarial self-supervised training, guided by differentiable rendering against collections of real RGB images. Controllable editing and manipulation are given by language prompts to adapt texture and expression of the 3D morphable model. To this end, we propose a neural network that predicts both texture and expression latent codes of the morphable model. Our model is trained in a self-supervised fashion by exploiting differentiable rendering and losses based on a pre-trained CLIP model. Once trained, our model jointly predicts face textures in UV-space, along with expression parameters to capture both geometry and texture changes in facial expressions in a single forward pass. We further show the applicability of our method to generate temporally changing textures for a given animation sequence.
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译
在这项工作中,我们引入了削减(对对比和无监督的分割培训),这是第一个完全无监督的深度学习框架,以进行医学图像细分,从而促进了未经标记或注释的绝大多数成像数据的使用。将医学图像分割成感兴趣的区域是促进患者诊断和定量研究的关键任务。该细分的一个主要限制因素是缺乏标记的数据,因为在注释者之间获得每组新的成像数据或任务的专家注释可能是昂贵,劳动力且不一致的:因此,我们利用基于Pixel-的自学意义图像本身的居中补丁。我们无监督的方法是基于对比度学习和自动编码方面的培训目标。以前的医学图像细分学习方法集中在图像级对比度训练上,而不是我们的图像内贴片级别的方法,或者将其用作一项预训练的任务,此后网络之后需要进一步监督培训。相比之下,我们构建了第一个完全无监督的框架,该框架在以像素为中心的斑点级别上运行。具体来说,我们添加了新颖的增强,补丁重建损失,并引入了一个新的像素聚类和识别框架。我们的模型在几个关键的医学成像任务上取得了改进的结果,这是通过对视网膜图像的地理萎缩(GA)区域进行分割的任务进行了固定的专家注释的验证。
translated by 谷歌翻译
拟议的购物助理模型SANIP将帮助盲人检测手持有的物体,并从检测到的对象中获取信息的视频反馈。提出的模型由三个Python模型组成,即自定义对象检测,文本检测和条形码检测。为了检测手持对象,我们创建了自己的自定义数据集,该数据集包括Parle-G,Tide和Lays等日常商品。除此之外,我们还收集了购物车和出口标志的图像,因为对于任何人来说,使用购物车都至关重要,并且在紧急情况下还要注意出口标志。对于其他2个模型,提出的文本和条形码信息将从文本转换为语音,并传达给盲人。该模型用于检测经过训练并成功地检测和识别所需输出的对象,其精度和精确度良好。
translated by 谷歌翻译
人的言语通常伴随着包括手臂和手势在内的身体手势。我们提出了一种方法,该方法将与目标语音音频相匹配的手势重新效果。我们方法的关键思想是通过编码剪辑之间的有效过渡的新型视频运动图从参考视频中拆分和重新组装剪辑。为了在重演中无缝连接不同的剪辑,我们提出了一个姿势感知的视频混合网络,该网络综合了两个剪辑之间的缝线框架周围的视频帧。此外,我们开发了一种基于音频的手势搜索算法,以找到重新成型帧的最佳顺序。我们的系统生成的重演与音频节奏和语音内容一致。我们定量,用户研究对综合视频质量进行评估,并证明我们的方法与以前的工作和基线相比,我们的方法与目标音频的质量和一致性更高。
translated by 谷歌翻译
尽管网络体系结构性能取得了重大进展,但对抗性攻击的敏感性使得深度学习具有挑战性地在安全至关重要的应用中实施。本文提出了一种以数据为中心解决此问题的方法。一种具有不同亮度值的非局部降解方法已用于从改良的国家标准技术数据库(MNIST)和加拿大高级研究所(CIFAR-10)数据集中生成对抗性示例。在扰动下,该方法在MNIST数据集中提供了多达9.3%的绝对精度提高,而CIFAR-10数据集则提供了13%。使用具有较高亮度值的转换图像训练会增加分类器的鲁棒性。我们已经证明,转移学习对于对抗机器学习是不利的。结果表明,简单的对抗性示例可以提高弹性,并使深度学习易于在各种应用中应用。
translated by 谷歌翻译
转移学习使我们能够利用从一项任务中获得的知识来协助解决另一个或相关任务。在现代计算机视觉研究中,问题是哪个架构对给定的数据集更好地表现更好。在本文中,我们将14种预先训练的Imagenet模型的性能进行比较在组织病理学癌症检测数据集上,其中每个模型都被配置为天真的模型,特征提取器模型或微调模型。DENSENET161已被证明具有高精度,而RESET101具有高召回。适用于后续检查成本高的高精度模型,而低精度,但在后续检查成本低时,可以使用高召回/灵敏度模型。结果还表明,转移学习有助于更快地收敛模型。
translated by 谷歌翻译
人工智能(AI)发展鼓励了许多新的研究领域,包括支持AI的东西(物联网)网络。 AI分析和智能范式大大提高了学习效率和准确性。将这些学习范例应用于网络方案提供了新的网络解决方案的技术优势。在本文中,我们提出了一种改进的数据视角来的IOT安全方法。可以使用AI技术分析IoT设备的网络流量。使用经常性神经网络(RNN)提出了对抗学习(ADLIOTLOG)模型,并对网络流量的网络事件序列进行注意机制。我们将网络事件定义为日志中捕获的协议的时间序列包的序列。我们在网络日志中考虑了不同的数据包TCP数据包,UDP数据包和HTTP报文,以使算法强大。分布式物联网设备可以合作攻击我们的世界,该世界正在延伸到智力互联网。时间序列数据包通过去除噪声并添加时间戳来转换为结构化数据。得到的数据集由RNN训练,并且可以检测彼此协作的节点对。我们使用了BLEU分数来评估模型性能。我们的研究结果表明,当网络不受攻击时,我们方法训练的Adliotlog模型的预测性能在存在的情况下降低了3-4%。 Adliotlog可以检测到对手,因为当存在对手时,模型被协作事件欺骗,因此使用偏置事件而不是良性事件预测下一个事件。我们得出结论,AI可以为新一代的事物提供无处不在的学习。
translated by 谷歌翻译